CN111382567B - 一种中文分词和汉字多音字识别的方法及装置 - Google Patents

一种中文分词和汉字多音字识别的方法及装置 Download PDF

Info

Publication number
CN111382567B
CN111382567B CN202010471752.1A CN202010471752A CN111382567B CN 111382567 B CN111382567 B CN 111382567B CN 202010471752 A CN202010471752 A CN 202010471752A CN 111382567 B CN111382567 B CN 111382567B
Authority
CN
China
Prior art keywords
word
words
candidate
chinese
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010471752.1A
Other languages
English (en)
Other versions
CN111382567A (zh
Inventor
李小波
王少佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hengxin Shambala Culture Co ltd
Original Assignee
Hengxin Shambala Culture Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hengxin Shambala Culture Co ltd filed Critical Hengxin Shambala Culture Co ltd
Priority to CN202010471752.1A priority Critical patent/CN111382567B/zh
Publication of CN111382567A publication Critical patent/CN111382567A/zh
Application granted granted Critical
Publication of CN111382567B publication Critical patent/CN111382567B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请公开一种中文分词和汉字多音字识别的方法及装置。所述方法包括预先设置词库,并为词库中的多音字和多音词预设发音,在词库中匹配出所有可能的词汇,组成备选词列表,经过语言处理模型的嵌入层组成备选词向量列表;将单个汉字组成的中文句子输入语言处理模型,经过语言处理模型的编码器将输入序列表示成指定长度的向量,编码向量在译码阶段的每个时刻,经过语言处理模型的注意机制输出上下文向量;在备选词向量列表中匹配上下文向量,选中匹配的备选词,将选中的备选词及其预先设定的发音作为当前时刻的输出。采用本申请技术方案能够更加符合中文使用习惯,提高输出效率。

Description

一种中文分词和汉字多音字识别的方法及装置
技术领域
本申请涉及文字识别领域,尤其涉及一种中文分词和汉字多音字识别的方法及装置。
背景技术
对于中文分词,早先的语言处理模型在输出词汇时,存在很多缺点:
(1)中文词汇的总数量数以百万计,所以在输出层确定输出词汇时,所需要的人工神经元数量巨大;
(2)对不同的领域,需要中文词汇不同,动态调整最后输出层的神经元会删除所有的该层训练参数;
(3)在输出时,可能的词汇很少,不需要到整个词库中搜索。
发明内容
本申请提供了一种中文分词和汉字多音字识别的方法,包括:
预先设置词库,为备选词中的多音字和多音词预设发音,在词库中匹配出所有可能的词汇,组成备选词列表,将备选词列表中的所有备选词输入模型,经过模型的嵌入层后,组成备选词向量列表;
将单个汉字组成的待翻译中文句子输入模型,经过模型的编码器将输入序列压缩成指定长度的向量,编码向量在译码阶段的每个时刻,经过语言处理模型的注意机制输出上下文向量;
在备选词向量列表中匹配上下文向量,选中匹配的备选词,将选中的备选词及其预先设定的发音作为当前时刻的输出。
如上所述的中文分词和汉字多音字识别的方法,其中为备选词中的多音字和多音词预设发音,具体为:为多音字或多音词的多种读音设置对应的标识、为包含多音字的非多音词设置唯一发音标识。
如上所述的中文分词和汉字多音字识别的方法,其中将选中的备选词及其预先设定的发音作为当前时刻的输出,具体为:根据上下文向量确定每个备选词的词义,根据词义选择对应的正确发音,确定该发音对应的标识,将该标识附加在选中的备选词之后一齐作为当前时刻的输出。
如上所述的中文分词和汉字多音字识别的方法,其中将备选词列表中的所有备选词输入语言处理模型,经过语言处理模型的嵌入层后,组成备选词向量列表,具体包括如下子步骤:
将备选词列表中的所有备选词输入语言处理模型,提取所有备选词,计算备选词之间的词意相似度,根据词意相似度缩小备选词库的范围,得到备选词特征向量;
将高维稀疏的备选词特征向量转换为低维稠密的备选词特征向量,降低训练所需的数据量;
将得到的备选词特征向量作为特征值输入语言处理模型中进行训练,得到备选词向量列表。
如上所述的中文分词和汉字多音字识别的方法,其中采用下式经语言处理模型的注意机制输出上下文向量:
Figure DEST_PATH_IMAGE001
其中,Lx表示输入句子的长度,a ij 代表在输出句子第i个单词时输入句子中第j个单词的注意力分配系数,h j 是输入句子中第j个单词的语义编码。
本申请还提供一种中文分词和汉字多音字识别的装置,包括:
备选词向量列表生成模块,用于预先设置词库,为备选词中的多音字和多音词预设发音,在词库中匹配出所有可能的词汇,组成备选词列表,将备选词列表中的所有备选词输入模型,经过模型的嵌入层后,组成备选词向量列表;
待翻译中文句子上下文向量生成模块,用于将单个汉字组成的中文句子输入模型,经过模型的编码器将输入序列压缩成指定长度的向量,编码向量在译码器阶段的每个时刻,经过语言处理模型的注意机制输出上下文向量;
输出模块,用于在备选词向量列表中匹配上下文向量,选中匹配的备选词,将选中的备选词及其预先设定的发音作为当前时刻的输出。
如上所述的中文分词和汉字多音字识别的装置,其中备选词向量列表生成模块包括备选词发音设置子模块,具体用于为多音字或多音词的多种读音设置对应的标识、为包含多音字的非多音词设置唯一发音标识。
如上所述的中文分词和汉字多音字识别的装置,其中输出模块包括发音确定模块,具体用于根据上下文向量确定每个备选词的词义,根据词义选择对应的正确发音,确定该发音对应的标识,将该标识附加在选中的备选词之后一齐作为当前时刻的输出。
如上所述的中文分词和汉字多音字识别的装置,其中备选词向量列表生成模块,具体用于将备选词列表中的所有备选词输入语言处理模型,提取所有备选词,计算备选词之间的词意相似度,根据词意相似度缩小备选词库的范围,得到备选词特征向量;将高维稀疏的备选词特征向量转换为低维稠密的备选词特征向量,降低训练所需的数据量;将得到的备选词特征向量作为特征值输入语言处理模型中进行训练,得到备选词向量列表。
如上所述的中文分词和汉字多音字识别的装置,其中采用下式经语言处理模型的注意机制输出上下文向量:
Figure DEST_PATH_IMAGE002
其中,Lx表示输入句子的长度,a ij 代表在输出句子第i个单词时输入句子中第j个单词的注意力分配系数,h j 是输入句子中第j个单词的语义编码。
本申请实现的有益效果如下:
(1)将输入的单个汉字组成的句子转换为由多个词语组成的句子,预先为多音字或多音词设置预设读音,根据上下文语义确定对应的读音使得输出的读音更加符合中文习惯;
(2)对预先设置的中文词汇根据词义缩小范围,使得在输出层确定输出词汇时,减少所需要的人工神经元数量,提高输出效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本申请实施例一提供的一种中文分词和汉字多音字识别的方法流程图;
图2是将高维稀疏的巨大维度的备选词特征向量嵌入一个更小维度的空间示意图;
图3是语言处理模型示意图;
图4是本申请实施例二提供的一种中文分词和汉字多音字识别的装置图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本申请实施例一提供一种中文分词和汉字多音字识别的方法,由于中文的分词可看作是语言处理问题,输入为单个汉字组成的中文句子,输出为由汉字词语组成的句子,即输入和输出组成的句子的单位由字变成词,应用基于注意力的语言处理模型进行更高准确率的中文分词,使用深度学习算法与匹配算法相结合的方式同时进行中文分词和汉字多音字识别,如图1所示,具体包括如下步骤:
步骤110、预先设置词库,为备选词中的多音字和多音词预设发音,然后在词库中匹配出所有可能的词汇,组成备选词列表,将备选词列表中的所有备选词输入语言处理模型,经过语言处理模型的嵌入层后,组成备选词向量列表;
本申请实施例中,在进入语言处理模型前,先将所有中文词汇汇总得到词库,然后在词库中匹配出所有符合中文习惯的词汇,作为备选词列表;
同时,考虑中文文字和词汇中存在许多多音字和多音词,如“长”的读音有“chang”和“zhang”,“朝阳”的读音有“chaoyang”和“zhaoyang”,因此预先为多音字和多音词设置对应的标识,例如将“长”的读音“chang”定义为“长1”、读音“zhang”定义为“长2”;“朝阳”的读音“chaoyang”定义为“朝阳1”、读音“zhaoyang”定义为“朝阳2”;
另外,需要说明的是,对于包含多音字的非多音词,在识别到该词时,由于该词中的多音发音已经确定,因此对于包含多音字的非多音词则不做上述操作,例如“长大”,虽包含多音字“长”但遇到词语“长大”时必须读“zhang”,因此对于此种词汇不需要为该词做多种标识。
其中,备选词列表中的备选词输入语言处理模型后,先进入嵌入层,将输入的备选词离散变量转变为连续向量,组成备选词向量列表,具体包括如下子步骤:
步骤111、将备选词列表中的所有备选词输入语言处理模型,提取所有备选词,计算备选词之间的词意相似度,根据词意相似度缩小备选词库的范围,得到备选词特征向量;
具体地,将备选词向量由整形改为浮点型,变为整个实数范围的表示,然后计算备选词之间的相似度,将相似度较高的多个备选词作为同类型向量,由此缩小备选词的范围;
本申请应用下式计算备选词之间的相似度:
Figure DEST_PATH_IMAGE003
其中,r a r b 分别为备选词a和备选词b的词义,I a,b 为备选词集合,删除部分词义相似度较高的备选词以缩小备选词库范围,得到备选词特征向量。
步骤112、将高维稀疏的备选词特征向量转换为低维稠密的备选词特征向量,由此可以降低训练所需的数据量;
具体地,如图2所示,将高维稀疏的巨大维度的备选词特征向量嵌入一个更小维度的空间,得到低维稠密的备选词特征向量,由此降低备选词的数据量,提高训练的效率。
步骤113、将得到的备选词特征向量作为特征值输入语言处理模型中进行训练,得到备选词向量列表。
返回参见图1,步骤120、将单个汉字组成的中文句子输入语言处理模型,经过语言处理模型的编码器将输入序列压缩成指定长度的向量,编码向量在译码器阶段的每个时刻,经过语言处理模型的注意机制输出上下文向量;
图3为语言处理模型示意图,其中,语言处理模型包括嵌入层、编码器、解码器和匹配层;备选词列表进入嵌入层得到备选词向量列表,然后输入匹配层等待匹配;当需要将单个汉字组成的中文句子进行分词和多音识别时,将中文句子输入编码器转换为模型能够识别的机器语言,在进入解码器的每个时刻均经过语言处理模型的注意机制输出上下文向量,该上下文向量输入匹配层与匹配层中的备选词向量进行匹配;
具体地,采用下式经语言处理模型的注意机制输出上下文向量,具体如下:
Figure DEST_PATH_IMAGE004
其中,Lx表示输入句子的长度,a ij 代表在输出句子第i个单词时输入句子中第j个单词的注意力分配系数,h j 是输入句子中第j个单词的语义编码。
步骤130、在备选词向量列表中匹配上下文向量,选中匹配的备选词,将选中的备选词及其预先设定的发音作为当前时刻的输出;
本申请实施例中,备选词向量列表和待翻译句子转换的上下文向量进行匹配,选中的词作为当前时刻的输出,即本申请输入为单个汉字的中文句子,输出为由汉语词组组成的句子;
进一步地,在选中匹配的备选词之后,由于备选词中存在多音字或多音词发音,因此根据待翻译句子的上下文向量确定每个单词的词义,然后根据词义选择备选词对应的正确发音,确定该发音对应的标识,将该标识附加在选中的备选词之后一齐作为当前时刻的输出;
例如,输入的单个汉字的中文句子为“迎”“着”“朝”“阳”,在备选词向量列表中选中了备选词“迎着”和“朝阳”,然后根据“迎着”的语义确定“朝阳”的词义应该读“zhaoyang”,确定该发音对应的标识为“朝阳2”,因此该句子的输出为“迎着”“朝阳2”,输出的读音为“yingzhe zhaoyang”;
又例如,输入的单个汉字的中文句子为“一”“起”“长”“大”,在备选词向量列表中选中了备选词“一起”和“长大”而“长大”为包含多音字的非多音词,因此在识别此类词语时,直接输出“一起”“长大”,输出的读音为“yiqi zhangda”。
实施例二
本申请实施例二提供一种中文分词和汉字多音字识别的装置,如图4所示,包括:
备选词向量列表生成模块410,用于预先设置词库,为备选词中的多音字和多音词预设发音,在词库中匹配出所有可能的词汇,组成备选词列表,将备选词列表中的所有备选词输入模型,经过模型的嵌入层后,组成备选词向量列表;
待翻译中文句子上下文向量生成模块420,用于将单个汉字组成的中文句子输入语言处理模型,经过语言处理模型的编码器将输入序列压缩成指定长度的向量,编码向量在译码器阶段的每个时刻,经过语言处理模型的注意机制输出上下文向量;
输出模块430,用于在备选词向量列表中匹配上下文向量,选中匹配的备选词,将选中的备选词及其预先设定的发音作为当前时刻的输出。
本申请实施例中,备选词向量列表生成模块410包括备选词发音设置子模块,具体用于为多音字或多音词的多种读音设置对应的标识、为包含多音字的非多音词设置唯一发音标识。
本申请实施例中,输出模块430包括发音确定模块,具体用于根据上下文向量确定每个备选词的词义,根据词义选择对应的正确发音,确定该发音对应的标识,将该标识附加在选中的备选词之后一齐作为当前时刻的输出。
本申请实施例中,备选词向量列表生成模块410,具体用于将备选词列表中的所有备选词输入语言处理模型,提取所有备选词,计算备选词之间的词意相似度,根据词意相似度缩小备选词库的范围,得到备选词特征向量;将高维稀疏的备选词特征向量转换为低维稠密的备选词特征向量,降低训练所需的数据量;将得到的备选词特征向量作为特征值输入语言处理模型中进行训练,得到备选词向量列表。
本申请实施例中,待翻译中文句子上下文向量生成模块420具体用于采用下式经语言处理模型的注意机制输出上下文向量:
Figure DEST_PATH_IMAGE005
其中,Lx表示输入句子的长度,a ij 代表在输出句子第i个单词时输入句子中第j个单词的注意力分配系数,h j 是输入句子中第j个单词的语义编码。
以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种中文分词和汉字多音字识别的方法,其特征在于,包括:
预先设置词库,为备选词中的多音字和多音词预设发音,在词库中匹配出所有可能的词汇,组成备选词列表,将备选词列表中的所有备选词输入语言处理模型,经过语言处理模型的嵌入层后,组成备选词向量列表;
将单个汉字组成的待翻译中文句子输入语言处理模型,经过语言处理模型的编码器将输入序列压缩成指定长度的向量,编码向量在译码阶段的每个时刻,经过语言处理模型的注意机制输出上下文向量;
在备选词向量列表中匹配上下文向量,选中匹配的备选词,将选中的备选词及其预先设定的发音作为当前时刻的输出;
将备选词列表中的所有备选词输入语言处理模型,经过语言处理模型的嵌入层后,组成备选词向量列表,具体包括如下子步骤:
将备选词列表中的所有备选词输入语言处理模型,提取所有备选词,计算备选词之间的词意相似度,根据词意相似度缩小备选词库的范围,得到备选词特征向量;
具体应用下式计算备选词之间的相似度:
Figure 770443DEST_PATH_IMAGE001
其中,ra和rb分别为备选词a和备选词b的词义,Ia,b为备选词集合,删除部分词义相似度较高的备选词以缩小备选词库范围,得到备选词特征向量;
将高维稀疏的备选词特征向量转换为低维稠密的备选词特征向量,降低训练所需的数据量;
将得到的备选词特征向量作为特征值输入语言处理模型中进行训练,得到备选词向量列表。
2.如权利要求1所述的中文分词和汉字多音字识别的方法,其特征在于,为备选词中的多音字和多音词预设发音,具体为:为多音字或多音词的多种读音设置对应的标识、为包含多音字的非多音词设置唯一发音标识。
3.如权利要求2所述的中文分词和汉字多音字识别的方法,其特征在于,将选中的备选词及其预先设定的发音作为当前时刻的输出,具体为:根据上下文向量确定每个备选词的词义,根据词义选择对应的正确发音,确定该发音对应的标识,将该标识附加在选中的备选词之后一齐作为当前时刻的输出。
4.如权利要求1所述的中文分词和汉字多音字识别的方法,其特征在于,
采用下式经语言处理模型的注意机制输出上下文向量:
Figure 654960DEST_PATH_IMAGE002
其中,Lx表示输入句子的长度,aij代表在输出句子第i个单词时输入句子中第j个单词的注意力分配系数,hj是输入句子中第j个单词的语义编码。
5.一种中文分词和汉字多音字识别的装置,其特征在于,包括:
备选词向量列表生成模块,用于预先设置词库,为备选词中的多音字和多音词预设发音,在词库中匹配出所有可能的词汇,组成备选词列表,将备选词列表中的所有备选词输入语言处理模型,经过语言处理模型的嵌入层后,组成备选词向量列表;
待翻译中文句子上下文向量生成模块,用于将单个汉字组成的中文句子输入语言处理模型,经过语言处理模型的编码器将输入序列压缩成指定长度的向量,编码向量在译码器阶段的每个时刻,经过语言处理模型的注意机制输出上下文向量;
输出模块,用于在备选词向量列表中匹配上下文向量,选中匹配的备选词,将选中的备选词及其预先设定的发音作为当前时刻的输出;
备选词向量列表生成模块,具体用于将备选词列表中的所有备选词输入语言处理模型,提取所有备选词,计算备选词之间的词意相似度,根据词意相似度缩小备选词库的范围,得到备选词特征向量;将高维稀疏的备选词特征向量转换为低维稠密的备选词特征向量,降低训练所需的数据量;将得到的备选词特征向量作为特征值输入语言处理模型中进行训练,得到备选词向量列表;
具体应用下式计算备选词之间的相似度:
Figure 903539DEST_PATH_IMAGE003
其中,ra和rb分别为备选词a和备选词b的词义,Ia,b为备选词集合,删除部分词义相似度较高的备选词以缩小备选词库范围,得到备选词特征向量。
6.如权利要求5所述的中文分词和汉字多音字识别的装置,其特征在于,备选词向量列表生成模块包括备选词发音设置子模块,具体用于为多音字或多音词的多种读音设置对应的标识、为包含多音字的非多音词设置唯一发音标识。
7.如权利要求6所述的中文分词和汉字多音字识别的装置,其特征在于,输出模块包括发音确定模块,具体用于根据上下文向量确定每个备选词的词义,根据词义选择对应的正确发音,确定该发音对应的标识,将该标识附加在选中的备选词之后一齐作为当前时刻的输出。
8.如权利要求5所述的中文分词和汉字多音字识别的装置,其特征在于,待翻译中文句子上下文向量生成模块,具体用于采用下式经语言处理模型的注意机制输出上下文向量:
Figure 767590DEST_PATH_IMAGE004
其中,Lx表示输入句子的长度,aij代表在输出句子第i个单词时输入句子中第j个单词的注意力分配系数,hj是输入句子中第j个单词的语义编码。
CN202010471752.1A 2020-05-29 2020-05-29 一种中文分词和汉字多音字识别的方法及装置 Active CN111382567B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010471752.1A CN111382567B (zh) 2020-05-29 2020-05-29 一种中文分词和汉字多音字识别的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010471752.1A CN111382567B (zh) 2020-05-29 2020-05-29 一种中文分词和汉字多音字识别的方法及装置

Publications (2)

Publication Number Publication Date
CN111382567A CN111382567A (zh) 2020-07-07
CN111382567B true CN111382567B (zh) 2020-08-25

Family

ID=71222916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010471752.1A Active CN111382567B (zh) 2020-05-29 2020-05-29 一种中文分词和汉字多音字识别的方法及装置

Country Status (1)

Country Link
CN (1) CN111382567B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348073B (zh) * 2020-10-30 2024-05-17 北京达佳互联信息技术有限公司 一种多音字识别方法、装置、电子设备及存储介质
CN112528648A (zh) * 2020-12-10 2021-03-19 平安科技(深圳)有限公司 多音字发音的预测方法、装置、设备及存储介质
CN113268974B (zh) * 2021-05-18 2022-11-29 平安科技(深圳)有限公司 多音字发音标注方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144110A (zh) * 2019-12-27 2020-05-12 科大讯飞股份有限公司 拼音标注方法、装置、服务器及存储介质
CN111143563A (zh) * 2019-12-27 2020-05-12 电子科技大学 基于bert与lstm及cnn融合的文本分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090287969A1 (en) * 2008-05-13 2009-11-19 Bpm Microsystems Electronic apparatus and bit error rate tolerance method for programming non-volatile memory devices

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144110A (zh) * 2019-12-27 2020-05-12 科大讯飞股份有限公司 拼音标注方法、装置、服务器及存储介质
CN111143563A (zh) * 2019-12-27 2020-05-12 电子科技大学 基于bert与lstm及cnn融合的文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于生成性词库分词技术的汉语拼音自动转换研究;罗万;《中国优秀硕士学位论文全文数据库 哲学与人文科学辑》;20091115(第11期);第3节 *

Also Published As

Publication number Publication date
CN111382567A (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
CN112560503B (zh) 融合深度特征和时序模型的语义情感分析方法
CN111382567B (zh) 一种中文分词和汉字多音字识别的方法及装置
CN108305612B (zh) 文本处理、模型训练方法、装置、存储介质和计算机设备
CN110147451B (zh) 一种基于知识图谱的对话命令理解方法
CN109165563B (zh) 行人再识别方法和装置、电子设备、存储介质、程序产品
CN111695052A (zh) 标签分类方法、数据处理设备、可读存储介质
CN113380223B (zh) 多音字消歧方法、装置、系统及存储介质
CN114169312A (zh) 一种针对司法裁判文书的两阶段混合式自动摘要方法
CN115329766B (zh) 一种基于动态词信息融合的命名实体识别方法
CN114266254A (zh) 一种文本命名实体识别方法与系统
CN115906845B (zh) 一种电商商品标题命名实体识别方法
CN111199152A (zh) 一种基于标签注意力机制的命名实体识别方法
CN114861601B (zh) 基于旋转式编码的事件联合抽取方法及存储介质
CN116069924A (zh) 一种融合全局和局部语义特征的文本摘要生成方法及系统
CN115906855A (zh) 一种字词信息融合的中文地址命名实体识别方法及装置
CN113254575B (zh) 一种基于多步证据推理的机器阅读理解方法与系统
CN113205813B (zh) 语音识别文本的纠错方法
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
CN113990286A (zh) 语音合成方法、装置、设备及存储介质
CN113468366A (zh) 一种音乐自动标签方法
CN113468322A (zh) 关键词识别模型的训练、提取方法、装置、设备及介质
CN117151223B (zh) 一种基于可学习提示的多模态实体识别和关系抽取方法
CN114999447B (zh) 一种基于对抗生成网络的语音合成模型及语音合成方法
CN112530414B (zh) 迭代式大规模发音词典构建方法及装置
CN113658587B (zh) 一种基于深度学习的高识别率的智能语音识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant